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Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

Prufungsantrag gem. § 44 PatG ist gestellt 

(54) Spracherkennungsverfahren mit Konfidenzmafcbewertung 

(57) Die Erfindung betrifft ein Verfahren zur automatischen 
Erkennung sprachlicher Aul&erungen, wobei eine Bewer- 
tung eines Erkennungsergebnisses mittels eines ersten x 

Konfidenzmaftes und eine automatische Kombination 

mehrerer fur ein Erkennungsergebnis ermittelter zweiter 
Konfidenzmafte zur Bestimmung des ersten Konfidenz- 
maRes vorgesehen ist. 

Um die resultierende Fehlerrate bei der Beurteitung der 
Richtigkeit eines Erkennungsergebnisses zu verringern, 
wird vorgeschlagen, daft die Ermittlung der die Kombina- 
tion der zweiten KonfidenzmaRe gewichtenden Parame- 
ter auf einer Minimierung eines Cross-Entropie-Fehler- 
m a tees beruht. Eine weitere Verbesserung wird mittels ei- 
ner auf der Maximierung der Gardner-Derrida-Fehlerfunk- 
tion beruhenden Nachverarbeitung erzielt. 
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Beschreibung 



Die Erfindung betrifft ein Verfahren zur automatischen Erkennung sprachlicher AuBeningen, wobei eine Bewertung 
eines Erkennungsergebnisses mittels eines ersten KonfidenzmaBes und eine automatische Kombination mehrerer fur ein 
Erkennungsergebnis ermittelter zweiter KonfidenzmaBe zur Bestimmung des ersten KonfidenzmaBes vorgesehen ist. 

Das erfindungsgemaBe Verfahren laBt sich insbesondere auf dem Gebiet der "command and control -Anwendungen 
einsetzen wo mittels einzelner sprachlicher AuBerungen (in der Regel einzelne Worter) eine Steuerung von elektnschen 
Geraten e'rfolgt. Auch in Diktieranwendungen ist das hier dargestellte Verfahren einsetzbar. 

Durch Bewertung von Spracherkennungsergebnissen mittels eines KonfidenzmaBes (= ZuverlassigkeitsmaB) wird 
entschieden, ob ein Erkennungsergebnis fur die jeweilige Anwendung ausreichend zuverlassig die tatsachhch eingege- 
bene sprachliche AuBerung reprasentiert. Hierzu wird ein Vergleich des ermittelten KonfidenzmaBes mit einem Schwell- 
wert durchgefuhrt. Gegebenenfalls wird der Benutzer aufgefordert, seine sprachliche Eingabe zu wiederholen. 

Aus T Kemp T Schaaf, "Confidence measures for spontaneous speech recognition", Proc. ICASSP, vol. 11, 5>eiten 
875-878* 1997 ist der Grundgedanke bekannt, zur Ermittlung eines resultierenden KonfidenzmaBes mehrere Konfidenz- 
maBe zu kombi'nieren. Es werden verschiedene Kombinationsmoglichkeiten angedeutet, die aber im einzelnen mcht na- 

^D^Sndungliegt nun die Aufgabe zugrunde, bei dem eingangs genannten Verfahren die resultierende Fehlerrate bei 
der Beurteilung der Richtigkeit eines Erkennungsergebnisses zu verringern. 

Die Aufgabe wird dadurch gelost, daB die Ermittlung der die Kombination der zweiten KonfidenzmaBe bestimmenden 
Parameter auf einer Minimierung eines Cross-Entropie-FehlermaBes beruht. . . , 

Auf diese Weise erhalt man insbesondere Parameterwerte, die als Gewichte bei einer Linearkombination der zweiten 
KonfidenzmaBe dienen, urn so das erste KonfidenzmaB zu erhalten. 

Zur weiteren Reduzierung der Fehlerrate wird vorgeschlagen, daB das KonfidenzmaB vor einem Vergleich mit einem 
als Entscheidungsgrenze dienenden Schwellwert mittels eines benutzer- und/oder sprachauBerungsspezifischen Qtlset 

^SSm Vtagteich des KonfidenzmaBes, das auch aus einer Kombination von KonfidenzmaBen bestehen kann mit einem 
Schwellwert ist nun auf einfache Weise eine automatische Anpassung an bestimmte Anwendungsfalle moglich, onne das 
eine Schwellwertanpassung erforderlich ist. c ,v 0 „ 

Die Erfindung betrifft auch ein Spracherkennungssystem mit Verarbeitungseinheiten zur Bewertung eines Erken- 
nungsergebnisses mit einem der beschriebenen Verfahren. «„„ t u„u m 

Ausfuhrungsbeispiele der Erfindung werden im folgenden anhand einer Figur naher erlautert, die die wesenthchen 
Komponenten eines erfindungsgemaBen Spracherkennungssystems zeigt. 

Einem Funktionsblock 1 des dargestellten Spracherkennungssystems wird eine Folge 

X = Xl, x 2 , . . ., XT 

von Merkmalsvektoren x t mit der Zeitvariablen t = 1, . . .,T zugefiihrt, die eine sprachliche AuBerung - insbesondere ein 
Einzelwort - reprasentieren. Zur Bildung der Merkmalsvektoren x t wird ein in elektnscher Form vorliegendes Sprachsi- 
gnal abgetastet, quantisiert und einer Cepstralanalyse unterzogen. Dabei wird das Sprachsignal in aufeinanderfolgende 
Rahmen eingeteilt, die sich teilweise uberlappen. Fur jeden Rahmen werden Cepstralwerte gebildet, die in einem Merk- 
malsvektor x, zusammengefaBt werden. Funktionsblock 1 beschreibt auch die ubliche stochastische Sprachsignalverar- 
beitung mit e ner Generierang von Produktionswahrscheinlichkeiten P(W I X) fur eine Wahrscheinlichkeit einer sprach- 
UcheJ AuBerung W gegeben die Folge X, wobei Markovmodelle HMM ("Hidden Markov Models") und bekannte 
BayS-Regel zum Einsalz kommen. Der Funktionsblock 2 bildet nun das Maximum P( Wl I X) der ProdukUonswahr- 
scheinlichkeiten P(W I X). Die sprachliche AuBerung W„ wird als Erkennungsergebnis bewertet und gegebenenfalls fur 
eine Weiterverarbeitung in einem elektrischen Gerat genutzt, z. B. als Steuersignal. Die ermittelten Wahrscheinhchkeiten 
P(W, I X) werden weiterhin einer durch einen Funktionsblock 3 dargestellten Verarbeitung unterzogen, bei der jedem 
Wert P(Wi I X) ein KonfidenzmaBvektor z = (z„ . . ., z N ) mit N > 1 zugeordnet wird dessen N Komponenten ^die Konfi^ 
denzmaBe z,, . . ., z N (zweite KonfidenzmaBe) enthalten. Jedes KonfidenzmaB enthalt einen Wert, dessen GroBe ein MaB 
fiir die Zuverlassigkeit des Erkennungsergebnisses Wi ist. 

Folgende Beispiele fur mogliche KonfidenzmaBe sollen hier fiir N = 5 genannt werden: 

1) z,- Differenz zwischen der logarithmierten Wahrscheinlichkeit der besten und zweitbesten SprachauBerungshy- 
pothese zu einem Zeitpunkt t zwischen dem Zeitpunkt w. der dem Zeitpunkt des Empfangs dem«rsten Beobach- 
tungszeitpunkt bezuglich der betreffenden sprachlichen AuBerung entspricht, und dem Zeitpunkt W der dem letz- 
ten Beobachtungszeitpunkt bezuglich der betreffenden sprachlichen AuBerung entspncht ("two-best ); 

2) zy Differenz zwischen der logarithmierten Wahrscheinlichkeit der besten und dem Mittelwert der logarithmier- 
ten Wahrscheinlichkeit der n (z. B. n = 20) besten Endhypothesen der betreffenden sprachlichen AuBerung zum 
Zeitpunkt t, der auch zwischen den Zeitpunkten W und te„ d Hegt ("n-average-best"); „,,_,.,. u , .. . 

3) zv Unter der Annahme, daB jede SprachauBerungshypothese mit einer logarithmierten Wahrscheinlichkeit l w 
zum Zeitpunkt W starlet und zum Zeitpunkt Wj als Endhypothese endet, wird die Differenz zwischen der logarith- 
mierten Wahrscheinlichkeit l w mit der Summe der "scores" ( - logarithmierte Wahrscheinhchkeiten) der besten Zu- 
stande des entsprechenden HMM im Bereich (km, Wnd) berechnet ("n-best-state"); 

4) Z4: Langennormierte logarithmierte Wahrscheinlichkeit ("avg-acoustic") 

l w ' = lw/(lend — l sian + l)i 

5) z s : Verhaltnis zwischen der Anzahl HMM-Zustande des Wortes und der Anzahl Beobachtungen, die durch tend- 
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tstan bestimmt wird ("speaking rate"). 

Ein verbesserte Klassifikationsergebnisse lieferndes KonfidenzmaB erhalt man, wenn statt solcher einfacher ursprung- 
licher (Roh-)KonfidenzmaBe (zweite KonfidenzmaBe) ein erweiterter Vektor z = Z20 = (zi 2 , Z1Z2, Z1Z3, . . Z5 2 ) gebildet 
wird, dessen Komponenten modifizierte KonfidenzmaBe (modifizierte zweite KonfidenzmaBe) enthalten, die durch Mul- 5 
tiplikation jeweils zweier der urspriinglichen KonfidenzmaBe gebildet werden, und zwar wird jedes urspriingliche Kon- 
fidenzmaB mit jedem anderen urspriinglichen KonfidenzmaB multipliziert. Dieser Ansatz kann auch modifiziert werden, 
indem urspriingliche KonfidenzmaBe zur Bildung modifierter KonfidenzmaBe miteinander multipliziert werden. 

Aus den verschiedenen KonfidenzmaBen zj, . . z^ (bzw. gegebenenfalls den modifizierten KonfidenzmaBen) fur ein 
Erkennungsergebnis Wi wird nun durch Kombination gemaB einer spater naher erlauterten Kombinationsfunktion f(z) 10 
ein resultierendes KonfidenzmaB f(z) (erstes KonfidenzmaB) gebildet (Funktionsblock 4), welches dem Schwellwert x 
verglichen wird (Funktionsblock 5). In Abhangigkeit vom Ergebnis dieses Vergleichs wird als ein Klassifikationsergeb- 
nis c erzeugt, das entweder beinhaltet, daB das jeweilige Erkennungsergebnis Wj nicht ausreichend zuverlassig (hier 
dann c = 0) oder als ausreichend zuverlassig (hier dann c = 1) bewertet wird. Im ersten Fall wird der Benutzer beispiels- 
weise aufgefordet werden, seine Spracheingabe zu wiederholen. 15 

Zur Ableitung der Art und Weise der Kombination der KonfidenzmaBe z wird nun ein Vektor Ze = (z, 1) definiert. Eine 
Entscheidungsgrenze f(z) = x ist zu bestimmen, was im folgenden noch erlautert wird. Setzt man nun eine Linearkombi- 
nation der KonfidenzmaBe mit 

f(z) = Jizj + J 2 z 2 + . . . + Jn^n 20 

voraus und faBt die Gewichte (Multiplikatoren) Ji . . . Jn zusammen mit dem Schwellwert 1 zu einem Vektor J = (Ji, J2, 
. . . Jn, x) zusammen, gelangt man zu einem Skalarprodukt 

a = Ze J. 25 

Unter Anwendung der sogenannten Bayes-Formel kann nun die a posteriori Wahrscheinlichkeit P(c I Ze) =: y in Sig- 
moid-Form geschrieben werden als 

y = r mit a - in 

' \ + e~ a P(z.\c=0)P(c=Q) 

Nunmehr wird vorausgesetzt, daB klassenbedingten Wahrscheinlichkeiten P(Zelc) Mitglieder einer Familie exponen- 
tieller Verteilungsfunktionen (insbesonder GauB- und Bernoulliverteilungsfunktionen) sind. Unter dieser Voraussetzung 
gilt a = a'. Ein solcher Ansatz ist fur sehr viele Anwendungen vertretbar. 35 

Die Entscheidungsgrenze muss entsprechend der Bayes'schen Regel bei y = 0.5 liegen. Daraus folgt a = a' = 0 als Ent- 
scheidungsgrenze in dem gewahlten Modell. 

Um zu einer geeigneten Fehlerfunktion fur das vorliegende Bayes-Entscheidungsproblem zu gelangen und mittels ei- 
nes Trainings die Parameter Ji . . . J N zu bestimmen, wird nun die bedingte Wahrscheinlichkeit P(c I 2^) geschrieben als 



P(clze) = y c (l-y) 



l-c 



L=Y\P{c i \z, e )=Y[y i c ' Q-yy- c> 



£=-^{c 1 .logO' I )+(l-c i )log(l-> 1 )} 



Diese Fehlerfunktion hat den Vorteil, daB kleine Wahrscheinlichkeiten sehr gut abgeschatzt werden, z. B. wesentlich 
besser als mittels einer LMS -Fehlerfunktion ("Least Mean Square"). Das beim Training durchzufuhrende Minimieren 
der Cross-Entropie E fuhrt mit 

BE 

-r—=y i -c> 

da. 

zu einer als Lernregel wahrend eines Trainings verwendeten stochastische Sequenz 

SJ(i) =-7 1 ^S7 J a, =tj z i e (c, - 1 _ q ) , 
oa i 1 + e ' 

die einem bereits bestimmten J additiv iiberlagert wird, so daB schlieBlich die Komponenten von J mit Hilfe des negati- 



30 



40 



was einem speziellen Fall einer Bernoulli- Verteilung entspricht. Mit Iterationsschritten entsprechenden Zeitpunkten i, fur 
die unabhangig voneinander ermittelte Trainingsdaten vorliegen, kann nun die Wahrscheinlichkeit L beziiglich der ge- 
samten Trainingsdaten ausgedriickt werden als 45 



Ein Minimieren einer Fehlerfunktion E = -log(L) ist damit aquivalent zum Minimieren des sogenannten Cross-En- 50 
tropy-Fehlers 
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ven Gradienten von der Fehlerfunktion E aktualisiert werden. ti ist eine geeignet heuristisch zu ermittelnde Konstante. 

Diese Lernregel wird nun zum Training eines neuronalen Netzes mit einer Schicht und einer sigmoidfonrugen Ausga- 
befunktion verwendet, das schlieBlich zur Realisierung der Funktion f(z) verwendet wird. Naheres zu Aufbau und Wir- 
kungsweise eines solchen neuronalen Netzes l&Bt sich dem Buch von C. Bishop, "Neural Networks for Pattern Recogni- 
tion" Oxford, 1995, Kapitel 6.7 entnehmen. Der Klammerausdruck in der Formel fur 5J(i) liegt 1m Bereich zwischen -1 
und 1 . Fur den Fall volliger Falschklassifizierung werden die Randwerte -1 oder 1 erreicht. Damit entspricht die Lernre- 
gel 5J(i) derjenigen, die beim Training konventioneller Perceptrons angewendet wird. 

An ein solches Training schlieBt sich vorzugsweise noch eines Nachverarbeitung an, die auf der Maxirmerungs der so- 
genannten Gardner-Derrida-Fehlerfunktion mittels des gleichnamigen Algorithmus (siehe A. Wendemuth, "Learning the 
Unlearnable", J. Phys. A, 28 : 5423, 1995) beruht. Auf diese Weise wird eine bessere Anpassung des Trainings an Aus- 
reiBer (z B. Daten mit sehr hohen Werten der Komponenten des KonfidenzmaBvektors z) und an "sampling"-Eflfekte 
(z. B. werden Falschklassifikationen von Trainingsdaten ignoriert) bewirkt, indem die Entscheidungsschwelle t und die 
Gewichte J Besonderheiten der Trainingsdaten - wie den genannten - angepaBt werden. 

Eine weitere Verbesserung der Fehlerrate bei der Klassifizierung eines Erkennungsergebnis als nchtig oder falsch wird 
dadurch erreicht, daB das Entscheidungsproblem f(z) < T urn einen benutzerspezifischen Offset Obj einen sprachauBe- 
rungsspezifischen Offset o wk oder einen sowohl benutzer- als auch sprachauBerungsspezifischen Offset Obj.wk erganzt 
wird. Die sich daraus ergebenden Entscheidungsgrenzen lauten: 

f(z) - O bj = T b j, 
f(z) - O w k = T wk> 
f(z) - O b j jWk = ^bj,wk- 

Der benutzerspezifische Offset Obj ist beispielsweise der Mittelwert, das Maximum oder das Minimum der fur Trai- 
nungsauBerungen des Benutzers bj ermittelten ZuverlassigkeitsmaBe (z lf z 2 , z 3 , z 4 oder z 5 ). Der sprachauBerungsspezifi- 
sche Offset o wk ist beispielsweise der Mittelwert, das Maximum oder das Minimum der fur TrainungsauBerungen des 
Wortes w k ermittelten ZuverlassigkeitsmaBe (zi, z 2 , z 3 , Z4 oder z 5 ) unabhangig vom Benutzer. Der Offset o bjiWk wird 
grundsatzlich wie der Offset o wk bestimmt, jedoch ist er als benutzerabhangig defimert. 

Patentanspriiche 

1 Verfahren zur automatischen Erkennung sprachlicher AuBerungen, wobei eine Bewertung eines Erkennungser- 
gebnisses mittels eines ersten KonfidenzmaBes und eine automatische Kombination mehrerer fur ein Erkennungs- 
ergebnis ermittelter zweiter KonfidenzmaBe zur Bestimmung des ersten KonfidenzmaBes vorgesehen ist, dadurch 
gekennzeichnet, daB die Ermittlung der die Kombination der zweiten KonfidenzmaBe gewichtenden Parameter auf 
einer Minimierung eines Cross-Entropie-FehlermaBes beruht. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB das erste KonfidenzmaB eine Linearkombination der 
zweiten KonfidenzmaBe ist. . , ^ . 1 „ ^ a 

3 Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daB bet der Ermittlung der die Kombination der 
zweiten KonfidenzmaBe bestimmenden Parameter nach der Minimierung des Cross-Entropie-FehlermaBes erne auf 
der Maximierung der Gardner-Derrida-Fehlerfunktion beruhende Nachverarbeitung vorgesehen 1st. 

4 Verfahren nach einem der Anspriiche 1 bis 3, dadurch gekennzeichnet, daB der Kombination der zweiten Konfi- 
denzmaBe eine Vorverarbeitung vorausgeht, bei der die zweiten KonfidenzmaBe durch Multiphkation jeweils dntter 
RohkonfidenzmaBe gebildet werden. 

5 Verfahren nach einem der Anspriiche 1 bis 4, dadurch gekennzeichnet, daB zur Bestimmung modifierter zweiter 
KonfidenzmaBe jedes zweite KonfidenzmaB mit jedem anderen zweiten KonfidenzmaB multipliziert wird und daB 
die modifizierten zweiten KonfidenzmaBe der genannten Kombination zur Bildung des ersten KonfidenzmaBes un- 

terworfen werden. .^1 u 

6 Verfahren zur automatischen Erkennung sprachlicher AuBerungen mit einer Bewertung ernes Erkennungsergeb- 
nisses mittels eines KonfidenzmaBes insbesondere nach einem der Anspriiche 1 bis 5, dadurch gekennzeichnet, daB 
das KonfidenzmaB vor einem Vergleich mit einem als Entscheidungsgrenze dienenden Schwellwert mittels eines 
benutzer- und/oder sprachauBerungsspezifischen Offset angepaBt wird. 

7. Spracherkennungssystem mit Verarbeitungseinheiten zur Bewertung eines Erkennungsergebnisses mit einem 
Verfahren nach einem der Anspriiche 1 bis 6. 
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